\section{问题二的模型建立与求解}
	\subsection{玻璃的分类规律的分析}

	该小问要求分析高钾玻璃和铅钡玻璃的分类规律，由于表单2中数据所属玻璃类别已知，因此本问采用监督学习进行分类。对预处理后的数据使用决策树进行分类。

	\subsubsection{决策树}
	决策树是一种基于树形结构的监督学习算法，通过递归地将特征空间划分为互不重叠的区域来实现分类或回归任务。其核心思想是通过信息增益、基尼不纯度等指标选择最优划分特征，构建从根节点到叶节点的决策路径。其中每个分支节点代表一个特征及其划分阈值，每个叶子节点代表代表最终的分类或回归结果。

	信息增益($G$)基于信息熵（$H$），衡量划分前后数据不确定性的减少程度。选择使信息增益最大的特征进行划分，可以使得子节点的数据尽可能属于同一类别。信息增益($G$)及信息增益($G$)定义如\cref{eq:决策树_信息增益}。
	\begin{equation}
		\begin{aligned}
			\begin{cases}
				&H(D) = -\sum_{i=1}^{K} p_i \log_2 p_i \\
				&\text{G}(D, A) = H(D) - \sum_{v=1}^{V} \frac{|D_v|}{|D|} H(D_v) \\
				&A^* = \mathop{\arg\max}_{A \in \mathcal{F}} \text{Gain}(D, A)
			\end{cases}
		\end{aligned}
		\label{eq:决策树_信息增益}
	\end{equation}

	其中$D$表示数据集，$K$为类别总数，$p_i$表示随机变量的概率，$V$表示特征$A$的取值个数,在决策过程中选择使信息增益最大的特征$A^*$进行划分。

	基尼不纯度可以衡量数据集的分类不纯度，表示随机抽取两个样本其类别不一致的概率。选择使基尼不纯度下降最多的特征进行划分，可以使得子节点的数据尽可能纯净。基尼不纯度 ($Gini$) 及基尼指数下降($\Delta Gini$)定义如\cref{eq:决策树_基尼不纯度}。
	\begin{equation}
		\begin{aligned}
		\begin{cases}
		&Gini(D) = 1 - \sum_{i=1}^{K} p_i^2 \\
		&\Delta Gini(D, A) = Gini(D) - \sum_{v=1}^{V} \frac{|D_v|}{|D|} Gini(D_v) \\
		&A^* = \arg \max_{A \in \mathcal{F}} \Delta Gini(D, A)
		\end{cases}
	\end{aligned}
		\label{eq:决策树_基尼不纯度}
	\end{equation}
	其变量定义与\cref{eq:决策树_信息增益}中一致。
	\subsubsection{随机森林辅助分析}
	利用随机森林对于特征变量进行辅助验证，做法如下：对于决策树中的每个节点，通过\cref{eq:决策树_基尼不纯度}计算$\Delta Gini(D, A)$基尼不纯度的下降，每个特征的重要性等于该特征在所有节点分裂中导致的基尼不纯度减少量之和，对所有决策树的每个特征的重要性得分进行平均，所求值即为特征的重要性。
	\subsubsection{决策树分类结果}
	取20\%的数据为测试集，80\%的数据为训练集，运用python进行决策树分类，通过随机森林计算特征变量的重要性，得到结果如\cref{fig2:主分类结果}。
	\begin{figure}[H]
		\centering
		\includegraphics[width=0.85\textwidth]{B/主分类结果.png}
		\caption{主分类规律}
		\label{fig2:主分类结果}
	\end{figure}
	由图可知，在所有特征的重要性排序中PbO重要性远超其他特征，所以铅钡玻璃和高钾玻璃的区分，主要取决于玻璃中的PbO含量。其中铅钡玻璃PbO含量较高(>5.46)，高钾玻璃的PbO含量较低(<5.46)。

	\subsection{亚类划分方法及结果}
	该小问要求对高钾玻璃和铅钡玻璃进一步进行亚类划分，由于亚类类别未知，故采用无监督式学习进行推导。对随机森林求出的重要分类特征进行K-means聚类分析。
	\subsubsection{K-means聚类分析}
	K-means是一种基于形心的划分聚类方法，属于无监督学习的核心算法，特别适用于数据集呈现球形分布、簇大小相近且维度适中的问题。其核心思想是通过迭代重定位簇中心（质心）和重新分配数据点，以最小化簇内方差（Within-Cluster Variance）为目标，最终将数据划分为K个互斥的簇（类别）。其步骤如下：
	
	\textbf{Step 1)} 构造惯性损失函数$J$
		
		定义优化过程中的优化目标是最小化簇内平方和（Sum of Squared Errors, SSE）,也被称为惯性$J$，其数学公式为\cref{eq2:K-means目标函数}。
		\begin{equation}
			J = \sum_{i=1}^{k} \sum_{x \in C_i} \| x - \mu_i \|^2
			\label{eq2:K-means目标函数}
		\end{equation}
		
		其中，$k$是预设的簇数量，即划分的亚类；$C_i$代表第$i$个亚类；$\mathbf{x}$是亚类内的数据点；$\boldsymbol{\mu}_i$是该亚类的质心。该函数衡量了亚类内样本围绕质心的紧密程度，值越小说明聚类效果越好。
	
		\textbf{Step 2)} 计算质心
		
		质心是一个簇的几何中心，代表了该簇的“平均”特征。在连续数据中，它由该亚类所有数据点在每个特征维度上的算术平均值所定义：
		\begin{equation}
			\mu_i = \frac{1}{|S_i|}\sum_{x \in C_i}x
			\label{eq2:K-means计算质心}
		\end{equation}

		其中，$|S_i|$表示第$i$个簇中的数据点数量，具体到本问，质心其代表每个亚类的平均化学成分组成。

		\textbf{Step 3)} 度量距离
		
		使用欧几里得距离计算数据点到质心的距离$d(x,u_i)$:
		\begin{equation}
			d(x,\mu_i)=\sqrt{\sum_{j=1}^{k}(x_j-\mu_{ij})^2}
			\label{eq2:K-means计算距离}
		\end{equation}
	\subsubsection{轮廓系数}
	当随机选取k个簇数量后，通过轮廓系数$S$来评判聚类的质量：
	\begin{equation}
		S=\frac{b-a}{max{(a,b)}}
		\label{eq2:聚类分析}
	\end{equation}
	其中a表示数据点到亚类中其他点的平均距离，b表示数据点到最近亚类的所有点的平均距离。$S$的值越大，说明亚类划分越合理。
	\subsubsection{聚类结果}
	基于随机森林模型筛选出的四个主要特征变量（PbO、BaO、SiO、K₂O），本文在四维特征空间内对数据点进行聚类划分。在数据集中随机选取k个数据点作为质心后，利用\cref{eq2:K-means计算距离}计算各数据点到质心的距离，将数据点分配到距离最近的质心之后，重新通过\cref{eq2:K-means计算质心}更新各个质心的位置，多次迭代直到质心不再发生变化后求出亚类划分。最后通过轮廓分析对聚类结果进行评价，选取最优亚类划分方案。

	轮廓系数\cref{eq2:聚类分析}对选取的亚类数量进行分析的结果如\cref{fig2:轮廓划分}所示，当\textbf{铅钡玻璃划分为4个亚类，高钾玻璃划分为2个亚类}时，划分效果最好。（具体结果见附件）
	
	
	\begin{figure}[H]
		\centering
		\includegraphics[width=0.75\textwidth]{B/轮廓系数.png}
		\caption{轮廓分析结果}
		\label{fig2:轮廓划分}
	\end{figure}
	具体划分结果可视化为\cref{fig2:亚分类结果},可以看到同亚类内的数据点集中分布，不同亚类数据点分布几乎不重叠，这说明亚类划分合理且准确。
	\begin{figure}[H]
		\centering
		\includegraphics[width=0.95\textwidth]{B/亚分类结果.png}
		\caption{亚分类结果}
		\label{fig2:亚分类结果}
	\end{figure}
	
	\subsection{结果分析}
	\subsubsection{合理性分析}
	对亚分类后的结果采取anova检验计算其,其公式如\cref{eq2:anova检验},其中$MS_b$用于衡量不同亚类之间的差异程度,值越大反映了亚类之间的差异越大,$MS_w$用于衡量同一亚类内数据的分散程度，值越小，亚类内的数据点越分散，k表示亚类数量，n表示样本总数。
	\begin{equation}
		\begin{aligned}
		\begin{cases}
		&F=\frac{MS_{b}}{MS_{w}} \\
		&MS_{b}=\frac{\sum_{i=1}^{n}(x_i-\bar{x}_{\text{grand}})^2}{k-1}\\
		&MS_{w}=\frac{\sum_{j=1}^{k}\sum_{i=1}^{n_i}(x_i-\bar{x}_{\text{j}})^2}{n-k}
		\end{cases}
	\end{aligned}
		\label{eq2:anova检验}
	\end{equation}
	
	对检验后的结果，通过$1-F_{CDF}(F,df_1,Df_2)$计算其p值，若p值大于0.05，则说明亚类之间的差异不明显，亚类的划分不合理，反之说明亚类划分是合理的。其结果如下：
	\begin{table}[htbp]
		\centering
		\caption{合理性分析结果}
		\label{tab2:亚类划分结果}
		\begin{tabular}{lccccccc}
		\toprule
		玻璃类别 & PbO & BaO & \( \text{SiO}_2 \) & 玻璃类别 & \(\text{K}_2\text{O} \) &  \( \text{SiO}_2 \) &CaO \\
		\midrule
		高钾玻璃     & 0 & 0    & 0 & 铅钡玻璃     & $6 \times 10^{-6}$  & 0    & $1.21 \times 10^{-4}$   \\
		\bottomrule
		\end{tabular}
	\end{table}
	
	计算发现p值均远小于0.05，\textbf{亚类之间差异大，亚类内数据点较为聚合，亚类划分合理}。

	\subsubsection{敏感性分析}
	敏感性分析需要从定量分析的角度研究有关因素发生某种变化对某一个或一组关键指标影响程度的一种不确定分析技术。本文通过对随机森林得到的4个重要特征量进行扰动处理，通过分析扰动比例对模型分类结果的影响，进而对模型的敏感性进行分析。通过给代表性特征变量随机进行扰动，分析影响分类结果与否，可以得到如所示结果。

	{\color{red}补图or表格}